运维监控

功能概述

ZStack Cloud云平台主要以ZWatch组件提供运维监控功能,其包含如下功能:

  • 时序化监控:如资源负载数据、资源容量数据,并可自定义时序化数据。
  • 事件收集:收集系统中发生的预定义事件,例如物理机失联,虚拟机高可用功能启动等。
  • 报警功能:对时序化数据或事件进行通知,用户可自定义报警消息模板。

     时序化数据(time series data)指以固定时间间隔采集的数据,每个数据都有一个timestamp字段与之关联。
    
  • 审计功能:记录所有API操作,并提供搜索功能。

最佳实践

  • 设置合理报警条件。
    • 针对核心资源单独设置报警条目,例如针对存储容量使用设置超过65%提示告警。
    • 合理使用钉钉、邮箱、短信、http接收端,日常运维,建议设置邮箱报警或钉钉报警,实时报告异常信息。
  • 合理规划全局设置。
    • 设置监控数据采集时间间隔,建议设置20秒。
    • 设置监控数据保留时间,建议全局设置监控数据保留周期设置为1个月。

注意事项

  • 定期检查云平台。
  • 定期检查报警邮件、短信等信息。
  • 定期检查服务是否异常。

results matching ""

    No results matching ""